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Abstrakt. Jakie ważne problemy stoją przed metodami inteligencji obliczenio- 
wej? Co jest jej największym wyzwaniem? Jakie metody można uznać za najbar- 
dziej obiecujące? Jakie perspektywy? 


1. Problemy z definicjami. 


Inteligencja obliczeniowa (computational intelligence, CI) obejmuje obecnie 
wiele dziedzin, które rozwinęły się bardzo szybko w ostatnich dziesięcioleciach. 
Inspiracje biologiczne dotyczące funkcjonowania układu nerwowego przyczyniły 
się do powstania sieci neuronowych, teoria ewolucji i genetyka zainspirowała 
powstanie algorytmów ewolucyjnych, obserwacje etnologiczne doprowadziły do 
algorytmów rojowych i mrówkowych, a immunologia do powstania algorytmów 
wzorowanych na działaniu układu odpornościowego. Psychologia i lingwistyka 
przyczyniły się do powstania teorii logicznych, uwzględniających niepewność i 
nieprecyzyjne określenie informacji, takich jak logika rozmyta, logika przybliżona 
czy teoria posybilistyczna. Teorie wychodzące poza logikę dwuwartościową moż- 
na określić jako „miękkie obliczeniowo”, dopuszczające stopniowanie wartości. 

Trudno jest znaleźć dobry polski odpowiednik oddający ideę soft computing, 
gdyż nie jest ona jasno zdefiniowana również w języku angielskim. Tworzenie 
nowych dziedzin na podstawie wyboru metod, które mają wejść w zakres danej 
dziedziny, nie jest szczęśliwym pomysłem. Na jakiej podstawie mamy np. zali- 
czyć algorytmy genetyczne do „miękkiego obliczania”, odrzucając metodę stop- 
niowego studzenia, stosowaną do rozwiązywania tych samych zagadnień? Działy 
nauki (oraz większość działów matematyki) definiuje się określając problemy, 
jakimi się dana dziedzina zajmuje. Informatyka zajmuje się badaniem własności 
algorytmów. Problemy obliczeniowe, które nie dają się efektywnie zalgorytmizo- 
wać wymagają szczególnego podejścia. Inteligencja obliczeniowa zajmuje się 
teorią i metodami rozwiązywania problemów, które nie są efektywnie algorytmi- 
zowalne. 

Z takimi problemami organizmy biologiczne mają do czynienia na co dzień. 
Niektóre z tych problemów dają się rozwiązać dzięki zdolności do adaptacji, czy 
to za pomocą powolnych mechanizmów ewolucji, czy też mechanizmów uczenia 
się układu immunologicznego lub nerwowego. Przeżycie organizmu w warunkach 
konkurencji wymaga kategoryzacji sygnałów dochodzących ze zmysłów, rozpo- 
znawania obiektów i kontroli własnego organizmu. Pamięć semantyczna i wyższe 


czynności poznawcze, związane ze zdolnością do rozumowania, planowania, 
tworzenia teorii i posługiwania się językiem, oparte są na wykorzystaniu reprezen- 
tacji symbolicznych. Część inteligencji obliczeniowej, zajmującej się tą problema- 
tyką, nazywa się „sztuczną inteligencją” (AI). Od czasu neopozytywizmu utrwali- 
ło się przekonanie o niezależności i uniwersalności procesów myślowych od ich 
realizacji sprzętowej, czyli procesów zachodzących w mózgu. Przekonanie to 
stało się podstawą funkcjonalizmu a później kognitywizmu, który głosił, że fizy- 
kalny system symboliczny wystarczy do modelowania umysłu (Newell 1981). W 
ten sposób sztuczna inteligencja weszła w skład nauk kognitywnych, zmierzają- 
cych do zrozumienia sposobu działania układów poznawczych, w tym ludzkich 
umysłów. 


2. Alicała reszta. 


Sztuczna inteligencja zajmowała się początkowo głównie systemami symbo- 
licznymi, rozwijając się w oderwaniu od zagadnień związanych z rozpoznawa- 
niem struktur i sterowaniem, będących modelami działań sensomotorycznych. 
Było to podejście w oczywisty sposób niewystarczające dla robotyków jak i eks- 
pertów od badań nad mózgiem, próbujących zrozumieć neuropsychologiczne 
efekty uszkodzeń poszczególnych jego struktur. Postępy w takich dziedzinach jak 
analiza języka naturalnego czy dowodzenie twierdzeń matematycznych były po- 
wolne. Niestety, nadal utrzymuje się wyraźny podział ekspertami od sztucznej 
inteligencji i pozostałych działów inteligencji obliczeniowej: nie ma wspólnych 
konferencji, a pisma specjalistyczne zajmują się dość odmienną problematyką. 
Nawet w obszarze systemów uczących się nakrywanie jest niewielkie. Uczenie 
maszynowe w AI oparte jest na metodach indukcyjnych, poszukujących w anali- 
zowanych danych reguł symbolicznych, które można wykorzystać do rozumowa- 
nia (Mitchell 1997; Russell i Norvig 1995; Cichosz 2000). Co prawda program do 
gry w warcaby, napisany przez Samuela w 1959 roku, uczył się dobierając wagi w 
heurystycznych funkcjach oceny, szybko przewyższając umiejętnościami swojego 
twórcę. Jednakże niewiele późniejszych programów do gier planszowych, dowo- 
dzenia twierdzeń czy analizy tekstów zawierało elementy uczenia się. Tak złożone 
systemy AI jak SOAR (Newell 1990) czy Act-R (Anderson 1993, 1995) wykorzy- 
stują ciekawe sposoby uczenia przydatne do rozwiązywania problemów, ale cał- 
kiem odmienne od metod inteligencji obliczeniowej. 

W 1998 roku na World Congress of Computational Intelligence (WCCI), w 
Anchorage (Alaska) brałem udział w zorganizowanym przez Lee Gilesa i Cliffa 
Lau panelu dyskusyjnym poświęconym wyzwaniom, stojącym przez inteligencją 
obliczeniową w nadchodzącym stuleciu. W panelu uczestniczył również David 
Fogel, Walter Freeman, Steve Grossberg, Paul Werbos i kilku innych ekspertów. 
Na pytanie z sali, co uczestnicy myślą o teście Turinga, Steve Grossberg natych- 
miast stwierdził, że nie ma on żadnego znaczenia i jest to „zagadnienie AI dla 
ludzi od AT”. Według niego samo pojęcie reprezentacji wiedzy, podstawowe dla 
sztucznej inteligencji, nie ma sensu, gdyż w mózgu nie ma reprezentacji, są tylko 
mamy „adaptacyjne stany rezonansowe”. Po dłuższej dyskusji udało mi się zmusić 


dyskutantów do sformułowania innego wielkiego wyzwania, które stoi przed 
inteligencją obliczeniową: ma nim być stworzenie sztucznego szczura, robota 
mogącego przetrwać we wrogim środowisku naturalnym. Wymaga to oczywiście 
rozwiązania wielu zagadnień dotyczących percepcji, kontroli i do pewnego stop- 
nia planowania, ale nie zastąpi testu Turinga, który dotyczy wyższych czynności 
poznawczych. 

Dopiero w ostatniej dekadzie XX wieku pojawiły się sygnały świadczące o 
tym, że obydwa te poziomy — wyższych czynności poznawczych i związanych z 
nimi abstrakcyjnych procesów myślowych, oraz działań sensomotorycznych i 
afektywnych — są w istocie nierozłączne. Po pierwsze, okazało się, że płaty czo- 
łowe, odpowiedzialne za planowanie, kluczowe dla zrozumienia wyższych czyn- 
ności poznawczych, bez sprzężenia z podkorowymi ośrodkami odpowiedzialnym 
za zachowania afektywne nie spełniają swojej roli (por. Damasio 1996). Emocje 
konieczne są do sprawnego podejmowania decyzji. Spowodowało to rozwój pro- 
jektów dotyczących „systemów afektywnych” i ich zastosowania w robotyce. 
Filozofia kognitywna powinna traktować paradygmat symboliczny jako przybli- 
żenie do opisu stanów mentalnych, nie pozwalające na pełne zrozumienie wielu 
zjawisk umysłowych nawet na poziomie wyższych czynności poznawczych. „By- 
cie-w-Swiecie” Heideggera, działania intencjonalne, są głębszą podstawą do zro- 
zumienia umysłu niż procesy symboliczne. Po drugie lingwiści i filozofowie języ- 
ka po raz pierwszy zaczęli docierać do sedna zagadnień związanych z semantyką, 
odnosząc je do metafor wiążących znaczenie pojęć z działaniem i posiadaniem 
ciała (por. Lakoff, Johnson 1999). Pojęcia matematyczne nie są tu wyjątkiem, 
kognitywna filozofia matematyki (Lakoff i Nunez 2000) wniosła tu całkiem nowe 
spojrzenie, wykraczając poza jałowe spory Platoników z konstruktywistami. 

Dlaczego takie, wydawałoby się czysto teoretyczne zagadnienia, mają znacze- 
nie dla przyszłości inteligencji obliczeniowej? Znalazły one już swój wyraz w 
niektórych projektach dotyczących robotyki, np. idei „inteligencji behawioralnej”, 
której ucieleśnieniem jest projekt Cog (Brooks, Stein 1994, Adams i inn, 2000), 
chociaż robotyka kognitywna dopiero powstaje. Oderwanie percepcji i kontroli od 
rozumowania może znacznie utrudnić tworzenie inteligentnych systemów nawet 
dla potrzeb matematyki. Najważniejsze zagadnienia CI powinny więc dotyczyć 
integracji procesów rozpoznawania, konstruowania modeli mentalnych, i rozu- 
mowania w oparciu o te modele. Jednym z celów AI jest konstruowanie inteli- 
gentnych agentów, autonomicznych programów komputerowych potrafiących 
gromadzić użyteczną wiedzę i potrafiących użyć w tym celu różnorodne środki. W 
CI dominują zagadnienia związane z analiza sygnałów, rozpoznawaniem wzorców 
i sterowaniem, które można w takich agentach wykorzystać. 


3. Dziwna historia sieci neuronowych. 


Sieci neuronowe są obecnie bardzo obszerną dziedziną, mająca oprócz rozbu- 
dowanej teorii uczenia zastosowania zarówno do modelowania realnych układów 
biologicznych, jak i zastosowania czysto praktyczne, w zagadnieniach aproksy- 
macji i klasyfikacji. Dla modeli neurobiologicznych nie ma tu alternatywy. Po- 


czątkowo inspiracją było tworzenie modeli imitujących układy biologiczne; per- 
ceptron wzorowany był na konstrukcji oka. Jednakże wkrótce okazało się, że 
układy neuronowe mogą się przydać w zastosowaniach technicznych, dzięki swo- 
jej zdolności do adaptacji. W latach 1960 znano już wiele nieliniowych metod 
aproksymacji opartych na funkcjach bazowych, takich jak klasyfikatory Gaussow- 
skie czy klasyfikatory oparte na funkcjach potencjalnych. Aproksymacja w opar- 
ciu o funkcje sklejane lub eksponencjalne była powszechnie stosowana w fizyce i 
innych gałęziach nauki. Znalezienie dobrych parametrów w układach nielinio- 
wych było jednak trudnym zadaniem. 

Po okresie entuzjazmu trwającego od końca lat 1950 przez całą dekadę okazało 
się, że proste sieci neuronowe mają spore ograniczenia. Minsky i Papert przedsta- 
wili w książce ,,Perceptrons” (Minsky i Papert 1969) dokładną analizę jednowar- 
stwowych perceptronów, znajdując szereg trudnych problemów, których nie dało 
się za pomocą takich układów rozwiązać. Niektóre z nich, np. problem spójności 
grafu, są nadal poza zasięgiem perceptronów wielowarstwowych, chociaż można 
je rozwiązać za pomocą sieci wysyłających impulsy, w których pojawia się syn- 
chronizacja (Wang, 2000). Praca Hopfielda z 1982 roku pokazała, jak bardzo 
prosty układ dynamiczny w postaci sieci elementów bipolarnych realizuje funkcje 
pamięci skojarzeniowej (Hopfielda, 1982). Wywołało to duży wzrost zaintereso- 
wania takimi układami wśród fizyków (np. książka Hertz, Krough, Palmer 1993) i 
psychologów. Praca Rumelharta, Hintona i Williamsa (1986) zapoczątkowała z 
kolei szybki rozwój zastosowań algorytmu wstecznej propagacji do analizy da- 
nych. Inspiracje nadeszły więc ze strony psychologów (wszyscy trzej autorzy są 
psychologami). Nawet fizycy patrzyli na sieci neuronowe jak na magiczne urzą- 
dzenia wyobrażając sobie, że zamiast interpolacji zachodzą w nich jakieś tajemne 
procesy poznawcze (przykłady są np. w pracy Duch, Diercksen 1994). Z rozwo- 
jem sieci neuronowych wiązano ogromne nadzieje, na konferencje specjalistyczne 
przyjeżdżało tysiące osób. 

W tej atmosferze odkrywanie związków z teorią aproksymacji, prawdopodo- 
bieństwa, statystyką i metodami rozpoznawania wzorców, które rozpoczęło się już 
przy końcu lat 1980, trwało dość długo. Jako wielkie odkrycie potraktowano np. 
zastosowanie radialnych funkcji bazowych do aproksymacji (czyli wprowadzenie 
sieci RBF), sprowadzające się w praktyce do klasyfikatorów i aproksymatorów 
Gaussowskich, znanych od ponad 20 lat. Do tej pory panuje tendencja by nazywać 
wszystkie sieci, korzystające z funkcji bazowych, nie mających nic wspólnego z 
funkcjami radialnymi, sieciami typu RBF. Nadzieje na szybkie powstanie syste- 
mów myślących, dysponujących ogólną inteligencją, wykorzystujących sieci neu- 
ronowe i algorytmy ewolucyjne, nie sprawdziły się między innymi z powodu 
nadmiernego skoncentrowania się na rozpoznawaniu wzorców i zagadnieniach 
optymalizacji. 

Co nowego wniosły metody inteligencji obliczeniowej w tym zakresie? W po- 
równaniu z wieloma innymi metodami klasyfikacji, aproksymacji i klasteryzacji 
rezultaty nie były początkowo nadzwyczajne (por. np. projekt Statlog, Michie i 
inn. 1994). Wśród 22 metod użytych w tym projekcie sieci MLP nie znalazły się 
ani razu, a sieci RBF znalazły się tylko raz w pierwszej trójce najlepszych metod. 
Samoorganizujące się mapy Kohonena okazały się wyjątkowo złymi klasyfikato- 


rami, a wizualizacja przez nie oferowana nie oddaje relacji pomiedzy opisywany- 
mi obiektami czy ich skupieniami (Duch, Naud 1996). 

Od tego czasu rozwój teorii regularyzacji i wyboru modeli pozwolił na znaczne 
ulepszenie wyników. Pewną nowością są algorytmy konstruktywistyczne, lub 
bardziej ogólne algorytmy ontogeniczne, dostosowujące swoją złożoność do ana- 
lizowanych danych, zwiększające i zmniejszające liczbę elementów przetwarzają- 
cych sieci zależnie od potrzeb. Okazało się, że sieciowa organizacja obliczeń jest 
często bardzo wygodna i nazwę „sieci neuronowe” zaczęto stosować do wszelkie- 
go rodzaju algorytmów, w których przepływ obliczeń przedstawić można w po- 
staci węzłów sieci. Każdą sumę związać można z elementem sieci zbierającym 
dochodzące do niego informacje i przetwarzającym je za pomocą jakiejś funkcji 
bazowej. Prowadzi to do całkiem ogólnych modeli graficznych (Jordan i Sejnow- 
ski, 2001), stanowiąc pomost z popularnymi w statystyce sieciami Bayesowskimi. 
Z drugiej strony bardzo rozwinęły się czerpiące inspiracje z prac nad perceptro- 
nami metody SVM (Support Vector Machines, np. Vapnik 1998). Trudno trakto- 
wać je jako sieci neuronowe, chociaż większość prac na ten temat pojawia się w 
pismach i na konferencjach zajmujących się właśnie problematyką sieci neurono- 
wych. 

Czego można się spodziewać po próbach połączenia sieci neuronowych z in- 
nymi metodami inteligencji obliczeniowej i metodami statystycznymi? Nietrudno 
jest połączyć jedną z kilkudziesięciu znanych metod klasteryzacji, z jedną z kilku- 
dziesięciu metod optymalizacji (szczególnie dużą liczbę wariantów utworzyć 
można korzystając z algorytmów genetycznych i rojowych), przedstawić to jako 
algorytm sieciowy i dodać jakąś metodę interpretacji wyników. Można w ten 
sposób utworzyć bardzo wiele nowych algorytmów, a do każdego znaleźć jakieś 
dane, na których dany algorytm będzie dobrze działał. Problemem staje się stwo- 
rzenie mechanizmów meta-uczenia, pozwalające na automatyczne łączenie ze 
sobą różnych metod analizy danych w poszukiwaniu ich najlepszej kombinacji. 
Pewne próby w tym kierunku zrobiono w oparciu o schemat metod opartych na 
podobieństwie (Duch 2000), ale zagadnienie to wymaga wielu dalszych badań. 

Sieci neuronowe stały się niezwykle popularne, stworzono bardzo wiele pro- 
gramów komputerowych implementujące różne sieciowe algorytmy, co spowo- 
dowało lawinę zastosowań. W efekcie poszukuje się raczej zastosowań do 
istniejących narzędzi, niż narzędzi przydatnych do rozwiązywania konkretnych 
problemów. Algorytmy genetyczne stały się dla metod inteligencji obliczeniowej 
dominującą, niemalże jedyną metodą optymalizacji globalnej. Nie dzieje się tak w 
żadnej innej dziedzinie nauki. Na temat ewolucyjnych metod optymalizacji sieci 
neuronowych napisano niezliczone prace, podczas gdy trudno się doszukać prac 
próbujących stosować inne metody globalnej optymalizacji do optymalizacji sieci. 

Metodologia testowania algorytmów inteligencji obliczeniowej pozostawia 
wiele do życzenia. Nawet w zakrojonym na dużą skalę projekcie Statlog (Michie i 
inn. 1994) popełniono wiele błędów: nie podano tak podstawowych informacji jak 
ocena wariancji używanych metod, użyto tylko najprostszych wersji sieci neuro- 
nowych i innych algorytmów, nie wszystkie z używanych baz danych są publicz- 
nie dostępne, trudno więc dokonać porównań. Pomimo wysiłków wprowadzenia 
serii testów o wzrastającej trudności (np. testów PROBEN) nie są one powszech- 
nie stosowane. Baza danych z UCI (Mertz, Murphy) nie zawiera zbioru testów o 


systematycznie rosnących trudnościach i zawsze można w niej znaleźć jakiś zbiór, 
na którym wyniki dla nowej metody będą dobre. Dostępne tam dane mają czasem 
całkiem odmienne partycje treningowe od testowych, nie pozwalając żadnej po- 
prawnie działającej metodzie (tj. zakładającej, że dane do testowania uzyskano z 
tego samego procesu co dane treningowe) uzyskać dobrego wyniku. Najlepsze 
wyniki osiągają wówczas metody przypadkowo mające korzystne obciążenie 
(bias) dla tego typu danych. W efekcie nadal nie wiemy, jakie metody należy 
stosować do analizy danych by osiągnąć najlepsze wyniki. Jednym ze spektaku- 
larnych wczesnych sukcesów zastosowań sieci neuronowych był algorytm Net- 
Talk, uczący się wymowy słów języka angielskiego (Sejnowski i Rosenberg 
1987). Lepszy wynik osiągnąć można za pomocą prostego algorytmu najbliższego 
sąsiada, nie wymagającego adaptacji tysięcy parametrów (Waltz 1995). 

Można się więc zastanawiać, co zostanie w dłuższym okresie czasu z tego ob- 
szaru inteligencji obliczeniowej. Teoria informacji, prawdopodobieństwa, parame- 
trów ukrytych, teoria optymalizacji ryzyka i inne działy statystyki dają pewną 
podstawę dla tworzenia modeli danych. Zastosowania metod inteligencji oblicze- 
niowej wkraczające na obszar statystyki, rachunku prawdopodobieństwa czy teorii 
optymalizacji mają silną konkurencję w metodach wyrastających z tych dziedzin. 
Niestety brakuje powszechnie dostępnych programów komputerowych realizują- 
cych algorytmy tego rodzaju. Statystycy posługują się często niezbyt poza tym 
środowiskiem znanym językiem S, a wiele ciekawych algorytmów nie doczekało 
się wcale publicznie dostępnej implementacji. Nie ma programów do regularyzo- 
wanej analizy dyskryminacyjnej, ciekawy algorytm Alloc80, który okazał się 
najlepszy w testach Statlog (Michie 1994), nie jest dostępny, trudno więc zrobić 
porównanie z wynikami dobrych metod statystycznych. Wiele metod klasteryzacji 
i wizualizacji również nie doczekało się dostępnego oprogramowania, podczas 
gdy wariantów sieci Kohonena jest bardzo wiele. 

Z drugiej strony rozwój teorii i algorytmów uczenia się z krytykiem, pamięci 
asocjacyjnych opartych na sieciach z rekurencją, sieci wysyłających impulsy, 
metod modelowania niepewności, teorii uczenia się (Computational Learning 
Theory, por. Cichosz 2000), wyboru modeli i wielu innych idei jest trwałym i 
ważnym wkładem inteligencji obliczeniowej nie znajdującym na razie konkurencji 
w innych działach matematyki. 


4. Nowe wyzwania. 


Zastosowania metod inteligencji obliczeniowej ograniczone są często do pro- 
blemów, którymi zajmuje się rozpoznawanie struktur (pattern recognition). Więk- 
szość prac skupia się przy tym nad zagadnieniami zdefiniowanymi w ramach 
paradygmatu przestrzeni cech, określającej własności obiektów. Sieci neuronowe 
potrzebują danych w postaci wektorów liczb o ustalonej liczbie składowych. Od- 
powiada to funkcjom kory zmysłowej, podświadomym mechanizmom rozpozna- 
wania podstawowych cech obiektów, wykrywaniu cech wyższego rzędu i katego- 
ryzacji na tej podstawie. Mózgi zajmują się wyłącznie sygnałami, mającymi struk- 


ture czasoprzestrzenną, sekwencjami sygnałów, podczas gdy metody CI najczę- 
Scie] danymi statycznymi. 

Tymczasem wiele problemów nie da się w ogóle przedstawić w tej postaci. Na- 
leżą do nich zagadnienia wymagające złożonych metod reprezentacji wiedzy, opis 
obiektów o zmiennej strukturze (organizacji, przedsiębiorstw, cząsteczek che- 
micznych), sekwencji symboli (liter, wyrazów, zdań, par zasad DNA lub amino- 
kwasów białek), zmieniającego się stanu obiektów (pacjenta, gier planszowych, 
gier wojennych). Niektóre z tych zagadnień wchodzą w zakres zainteresowań 
sztucznej inteligencji. Niezwykle ambitne projekty, takie jak General Problem 
Solver (Newell 1990, Winston 1992), od początku wytyczyły w tej dziedzinie 
dobrze określone cele. Stworzenie programu wykazującego się ogólną inteligencją 
okazało się bardzo trudne, jednakże również inteligencja ludzka nie okazała się 
tak uniwersalna, jak początkowo sądzono. Uczenie się rozwiązywania problemów 
w jednym kontekście nie prowadzi automatycznie do osiągnięcia lepszych rezulta- 
tów dla podobnych problemów w odmiennym kontekście (por. Anderson 1995). 
W dobrze określonej dziedzinie daje się utworzyć ontologie zawierające opis 
używanych pojęć i utworzyć bazę wiedzy w oparciu o powiązania miedzy nimi. 
Przykładem systemu, którego kompetencje znacznie przewyższają możliwości 
ludzkiego intelektu jest EcoSys (Karp 2001), zawierający oparty na regułach pro- 
dukcji model procesów metabolicznych i genetycznych zachodzących w bakterii 
Escherische Coli. 

Takie zastosowania stawiają przed inteligencją obliczeniową szereg wyzwań. 
Jak wykorzystać wiedzę zdobytą w oparciu o analizę danych do systematycznego 
rozumowania? Stworzenie systemu do wspomagania diagnoz medycznych to 
jedynie pierwszy krok do planowania i monitorowania terapii. Takie działania 
wymagają rozważenia szeregu wariantów, a więc procesów szukania optymalnych 
rozwiązań. Najłatwiej jest je wykonać w systemach opartych na regułach. Jeśli z 
danych można wyciągnąć niewielką liczbę stosunkowo prostych reguł to da się je 
wykorzystać w algorytmie planującym. Zrozumienie danych, zarówno w sensie 
odkrywania reguł logiki klasycznej lub rozmytej, lub też szukania prototypów 
wystarczających do kategoryzacji przez podobieństwo, nie było dotychczas celem 
statystyki. W tym celu zastosować można wiele metod inteligencji obliczeniowej 
(Duch, Adamczak, Grąbczewski 2001). 

Jakich metody można użyć, jeśli liczba cech, istotnych dla opisu danych z ana- 
lizowanej bazy nie jest ustalona, a więc nie można się posłużyć paradygmatem 
przestrzeni wektorowej? W niektórych przypadkach można mieć nadzieję, że 
problem da się przeanalizować w kilku przestrzeniach, np. wstępnych testów po 
których nastąpią bardziej zaawansowane testy różnego rodzaju, zależnie od wyni- 
ków oceny początkowych testów. Potrzebne więc będą różne modele, za pomocą 
których da się otrzymać końcowy rezultat. Nie zawsze jest to jednak wystarczają- 
ce. Cząsteczki chemiczne można w bardzo uproszczony sposób zapisać w postaci 
grafów, których struktury da się analizować za pomocą sieci z rekurencją (Frasco- 
ni i inn. 1998). W nieco bardziej ogólny sposób można zdefiniować operatory 
przekształcające obiekty lub stany opisu problemu w siebie i obliczyć podobień- 
stwa jako sumę kosztów elementarnych operacji. W tym przypadku koszty mogą 
być parametrami adaptacyjnymi, pozwalającymi na upodobnienie obiektów nale- 
żących do tej samej klasy do siebie (Marczak i inn. 2002). Mając daną macierz 


podobieństw można do niej zastosować wiele metod klasyfikacji, np. metody 
oparte na podobieństwie lub analizę dyskryminacyjną Fishera. 

W realnych sytuacjach znamy zwykle tylko powiązania elementów, regularno- 
ści wiążące kilka zmiennych, które można się nauczyć na prostych przykładach. 
Jak korzystać z wiedzy na temat podproblemów przy rozwiązywaniu złożonego 
zadania? Ekspert analizując formuły algebraiczne lub patrząc na sytuację na sali 
sądowej czy na szachownicy korzysta w intuicyjny sposób z takiej wiedzy prowa- 
dząc dłuższe rozumowanie. Nawet jeśli problem da się opisać w przestrzeni cech 
to początkowo znamy tylko nieliczne z nich i na podstawie fragmentarycznej 
wiedzy kolejno dopełniamy brakujące elementy. Wykorzystanie takiej wiedzy 
jako heurystyk pozwala uniknąć eksplozji kombinatorycznej w procesach szuka- 
nia rozwiązań (Duch i Diercksen 1995, Duch 1997). 


5. Nowe spojrzenie. 


Najbardziej ambitnym celem CI jest budowa robota zdolnego nie tylko do 
przeżycia we wrogim środowisku, wymagającego wysokiej kompetencji behawio- 
ralnej, lecz również zdolnego do przejścia testu Turinga, a więc posiadającego 
wysokie kompetencje kognitywne. Budowa tego rodzaju systemu wymaga inte- 
gracji wszystkich gałęzi inteligencji obliczeniowej, zarówno tych zajmujących się 
procesami sensomotorycznymi, rozpoznawaniem prostych bodźców, percepcją jak 
i wyższymi czynnościami poznawczymi. Konieczne jest nowe spojrzenie na to 
zagadnienie. Z jednej strony mamy komunikację pomiędzy neuronami, pozwala- 
jąca na detekcję elementarnych cech sygnału wzrokowego czy słuchowego, a z 
drugiej komunikację pomiędzy ludźmi na poziomie symbolicznym. Na te dwa 
skrajne i na wszystkie pośrednie poziomy można spojrzeć w podobny sposób. 

Mózg nie jest wielką, jednorodną siecią neuronowa, lecz ma specyficzną, mo- 
dularną i hierarchiczną strukturę. Symboliczne metody AI próbują w sposób przy- 
bliżony opisać działanie tego systemu na najwyższym poziomie, a sieci neurono- 
we robią to samo na poziomie najniższym. Badanie poziomów pośrednich jest 
również interesujące, choć rzadko uprawiane. Na różnych poziomach złożoności 
mamy do czynienia z jednostkami przetwarzającymi informację, oddziaływują- 
cymi ze sobą w procesach wymiany informacji, i tworzącymi pewne całości, które 
uważać można za emergentne, autonomiczne jednostki wyższego poziomu. Te 
same ogólne zasady opisują działanie systemów na różnych poziomach złożono- 
Sci. 

Najprostszym poziomem rozważanym przez inteligencję obliczeniową jest per- 
ceptron (neurobiologiczne modele obliczeniowe dotyczą również niższych pozio- 
mów, ale są to modele zjawisk biofizycznych, a nie poznawczych). Wiedza per- 
ceptronu sprowadza się do jednego parametru, progu pobudzenia, podczas gdy 
wagi synaptyczne pełnią rolę parametrów definiujących oddziaływania z innymi 
perceptronami lub światem zewnętrznym. 

Perceptrony połączone razem tworzą różne struktury sieciowe, w najprostszym 
przypadku perceptrony wielowarstwowe (MLP), zdolne do nauczenia się dowol- 
nych odwzorowań. Struktura połączeń sieci biologicznych nie jest w pełni ustalo- 


na i zmienia się formując pod-sieci elementów oddziaływujących ze soba. Proste 
elementy nie wiedzą, przed jakim zadaniem stoi taka podsieć, potrafią jedynie 
dostosowywać przepływ informacji wykorzystując lokalne oddziaływania pomię- 
dzy połączonymi ze sobą elementami np. za pomocą reguły Hebba czy wstecznej 
propagacji błędów. Reguły uczenia pełnią tu rolę lokalnego krytyka zachowania, 
mającego wpływ na sposób oddziaływań i parametry wewnętrzne elementów 
przetwarzających informację. Oddziaływania i wiedza wewnętrzna określają ro- 
dzaj problemów, jakie dany system może rozwiązać. Zdolność do uogólniania 
pojawiająca się w sieciach jest pierwszym krokiem w kierunku twórczych zacho- 
wań. 

Prosty perceptron definiuje hiperpłaszczyznę rozróżniająca dwa rodzaje sygna- 
łów, poniżej i powyżej progu. Dodanie nowych parametrów wewnętrznych po- 
zwala na realizację nowych zadań. Jednym z problemów, których perceptrony nie 
potrafi rozwiązać, jest problem spójności grafów, postawiony przez Minskiego i 
Paperta (1969). Dodanie jednego parametru reprezentującego fazę i pozwalające- 
go na synchronizację grupy elementów pozwala na rozwiązanie problemu 
(Kunstman i inn. 1994). Czy to wystarczy do klasyfikacji innych topologicznych 
niezmienników? Jak scharakteryzować klasy złożoności problemów w zależności 
od rodzaju elementów przetwarzających i sposobu ich oddziaływania? Na razie 
jest tu więcej pytań niż odpowiedzi. 

Kolumny korowe składają się z dużej liczby neuronów działających często jako 
jedna jednostka (czasami nazywana Hebbowskim zbiorem neuronów). Różne 
konfiguracje pobudzeń takich elementów tworzą podsieci kodujące złożone formy 
rozpoznawania lub działania. Kolumny traktowane jako jednostki przetwarzające 
wyższego rzędu składają się z perceptronów, które reagują na proste aspekty do- 
chodzących do nich sygnałów. Do ich opisu nie wystarczy jeden parametr we- 
wnętrzny neuronów progowych. Kolumny kory reagują raczej na podobieństwo 
struktury dochodzących do nich sygnałów do struktur wcześniej poznanych. Jak 
opisać takie zachowanie jedną funkcją? Zamiast funkcji sigmoidalnych z jednym 
parametrem wewnętrznym można użyć funkcji transferu o większej liczbie para- 
metrów. Funkcje Gaussa mają N parametrów wewnętrznych (pozycja Gaussa, 
określająca jego pole recepcyjne) oraz tyle samo parametrów oddziaływania, 
związanych z odwrotnością dyspersji. Bardziej złożone funkcje (Duch i Jankowski 
1999) mogą modelować złożone obszary decyzji, realizowane dzięki kombinacji 
wielu sigmoidalnych neuronów w kolumnie. Sieci o nietypowych funkcjach trans- 
feru mogą przy mniejszej całkowitej liczbie parametrów (a więc mniejszej złożo- 
ności samej sieci) osiągnąć podobne rezultaty jak standardowe sieci MLP czy 
RBF. Niewiele dotychczas włożono wysiłku w badanie własności takich sieci, 
chociaż jest rzeczą oczywistą, że funkcje transferu mają wielki wpływ na szyb- 
kość zbieżności algorytmów uczenia. Sieci wykorzystujące różne funkcje transfe- 
ru w różnych węzłach (sieci heterogeniczne) umożliwiają odkrycie prostszych 
modeli danych niż standardowe sieci MLP. Pierwsze kroki w kierunku budowy 
takich systemów zostały niedawno zrobione (Duch i Jankowski 2001, Duch, 
Adamczak i Diercksen 2001, Jankowski i Duch 2001, Grąbczewski i Duch 2002), 
ale znalezienie sprawnych metod uczenia dla takich systemów pozostaje wyzwa- 
niem. 
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Prawdziwe neurony wysylaja impulsy i tworza sieci atraktorowe, pamieci sko- 
jarzeniowe, które należy opisywać używając języka układów dynamicznych. Po- 
budzenia takich sieci reprezentują wartości poszczególnych cech sygnału wej- 
Sciowego, a ich dynamika scharakteryzowana jest przez położenie i rozmiar base- 
nów atrakcji w przestrzeni cech. Węzły sieci reprezentujące lokalne sieci dyna- 
miczne powinny modelować te baseny atrakcji (Duch 1997). Takie węzły, realizu- 
jące złożone funkcje transferu, mogą do pewnego odtworzyć zachowanie się pa- 
mięci skojarzeniowych, zwykle modelowanych za pomocą autoasocjacyjnych 
sieci z rekurencją. Autoasocjację, a w szczególności dopełnianie wartości brakują- 
cych Nie są to sieci jednokierunkowe, dla dopełnienia wartości brakujących po- 
trzebne jest sprzężenie zwrotne od jednostek, których aktywność uznajemy za 
sygnał wyjściowy, do jednostek wejściowych. Ustalone wartości wejściowe X, 
nie będą zmieniane, podczas gdy wartości nieokreślone X, powinny dążyć do 
wartości maksymalizujących prawdopodobieństwo pojawienia się wektora 
X=(X,,X,). Można to osiągnąć startując z przypadkowych wartości nieznanych 
zmiennych X, i następnie szukając maksymalnego pobudzenia kolejnych jedno- 
stek wejściowych. Dla niektórych funkcji transferu (np. funkcji Gaussa) da się to 
prosto obliczyć. Dopuszczając niewielkie zmiany wartości wektora X, można w 
ten sposób również uwzględnić błędy w danych. 

Zaleta sieci tego rodzaju jest oczywista: automatycznie uzupełniają wartości 
brakujące, potrafią odpowiadać na różne pytania dopełniając brakujące fragmenty, 
mogą się uczyć na niepełnych danych i danych niesklasyfikowanych tak dobiera- 
jąc parametry, by jednostki wyjściowe osiągały maksymalne pobudzenia. Możli- 
wości sieci realizujących pamięci asocjacyjne i sieci do aproksymacji (takich jak 
MLP) warto połączyć w jednym modelu. Jeśli użyć separowalnych funkcji trans- 
feru G(X)=I1,G((x)), to każda ze składowych G((x;) może być interpretowana jako 
funkcja przynależności w sensie logiki rozmytej. Relacje pomiędzy położeniami 
lokalnych maksimów mogą być interpretowane jako podobieństwa związanych z 
tymi maksymami prototypów. Chociaż ogólna idea została opisana już w 1996 
roku (Duch i Diercksen, FSM) nadal o tego typu sieciach niewiele wiadomo, a 
systematyczne modelowanie basenów atrakcji sieci dynamicznych nie zostało 
nigdy zrobione. 

Wizualizacja procesów neurodynamicznych wymaga znacznej redukcji wymia- 
rowości. Istotne wymiary związane są z wielkościami obserwowalnymi, a więc 
przestrzenią danych wejściowych i wyjściowych, ale nie zawsze uda się znaleźć 
dobrą aproksymację basenów atrakcji sieci atraktorowych (Amit 1995) w takiej 
zredukowanej przestrzeni, potrzebna może być pewna liczba wymiarów ukrytych. 
Taką redukcję można osiągnąć stosując rozmyte uogólnienie metody dynamiki 
symbolicznej. Stan sieci atraktorowej opisany jest przez wektor pobudzen X(t) w 
przestrzeni fazowej aktywności wszystkich neuronów. W dynamice symbolicznej 
(Bedford i inn. 1991; Hsu 1994) dzieli się tą przestrzeń na rozłączne obszary, 
każdemu przypisuje symboliczną nazwę, i zapisuje w dyskretnych momentach 
czasu, do którego z obszarów należy X(t;). Interesujące informacje dotyczą atrak- 
torów, a więc obszarów przestrzeni, w których układ można znaleźć najczęściej. 
Rozmyte uogólnienie polega na zastąpieniu przynależności tak/nie do każdego z 
symbolicznie opisanych obszarów przez stopień przynależności opisany np. funk- 
cją Gaussa. Zamiast pojedynczego symbolu przypisanego wektorowi X(t) mamy 
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więc wektor F(X(t;)) określający stopień przynależności do różnych obszarów w 
danym momencie czasu. Wektor ten zdefiniowany jest w zredukowanej przestrze- 
ni o liczbie wymiarów równej liczbie funkcji przynależności. Przy odpowiednim 
wyborze położenia tych funkcji można w niskowymiarowej przestrzeni zachować 
wiele istotnych cech charakteryzujących neurodynamikę. Należą do nich położe- 
nia basenów atrakcji i prawdopodobieństwa przejść między nimi. Wybór opty- 
malnej liczby i położenia funkcji przynależności można zrobić przy pomocy sieci 
opartych na radialnych funkcjach bazowych z silną regularyzacją i wyborem cech 
dla każdego węzła. Aktywność poszczególnych funkcji F,(X(t;)) daje trajektorie w 
zredukowanej przestrzeni, dające się przybliżyć przez rozkłady gęstości prawdo- 
podobieństwa znalezienia układu w określonym punkcie przestrzeni F,. Jest to 
dokładniejszy sposób opisu niż przejście od sieci dynamicznych do automatów 
skończonych. 

Chociaż stosowanie złożonych elementów zwiększa wewnętrzne stopnie swo- 
body oddziaływania pomiędzy elementami są ustalone przez architekturę sieci. 
Usuwanie i dodawanie elementów sieci nie zmienia na przykład przestrzeni wej- 
ściowej. Tymczasem zwierzęta mają bardzo dużą liczbę receptorów zmysłowych i 
są zdolne do zwracania uwagi na bardzo różne kombinacje dochodzących do ich 
mózgów sygnałów. Sieci atraktorowe są „kombinatorycznie produktywne”, zdol- 
ne do aktywacji bardzo wielkiej liczby konfiguracji swoich modułów. Sieci jed- 
nokierunkowe, nawet ze złożonymi elementami, mają ustalone ścieżki przepływu 
danych. Nawet jeśli elementy tych sieci będą miały złożone stany wewnętrzne nie 
wystarczy to do modelowania różnorodnych oddziaływań modułów korowych, 
oddziaływań wybierających z wielkiej sieci konfiguracje oddziaływujących ze 
sobą modułów, które mogą coś wnieść do interpretacji otrzymanego sygnału. 

W jaki sposób z sieci nieskończenie wielu możliwych oddziaływań wyłania się 
kombinacja kompetentnych modułów, współpracujących ze sobą? Stan wewnętrz- 
ny kolumn korowych (modułów sieci) zmienia się w wyniku wcześniejszego 
pobudzania (efekty torowania, znane z badań nad pamięcią), a wiec niedawno 
używane moduły mają większe szanse się uaktywnić. Wstępne, niedoskonałe 
mechanizmy rozpoznawcze, działające na poziomie starej kory układu limbiczne- 
go i wzgórza, kontrolujące mechanizmy emocjonalne, decydują o dostępności 
neuromodulatorów, a więc o hamowaniu lub pobudzaniu różnych obszarów kory 
nowej. Sztuczne sieci neuronowe uwzględniają zwykle szybkie procesy rozpo- 
znawania i wolne procesy ucznia się, związane z plastycznością mózgu. Uprosz- 
czony model kontroli kory przez układ limbiczny powinien uwzględniać fakt, że 
parametry wewnętrzne (wagi, czyli interakcje miedzy elementami) sieci nie są 
ustalone, ale zależą od wstępnej oceny sygnału wejściowego, P(X) oraz od ukry- 
tych parametrów wewnętrznych P(H(X)) charakteryzujących stan wewnętrzny 
modułów korowych. Każdy moduł powinien ocenić, na ile jest kompetentny w 
danej sytuacji, i jeśli może coś użytecznego wnieść dodać swój wkład do rozwią- 
zania oddziałując z innymi modułami. 

Idea ta może mieć szerokie zastosowanie jako zasada budowy sieci modular- 
nych, od sieci prostych elementów po sieci oddziaływujących ze sobą agentów 
programowych. Ostatnio zastosowaliśmy ją do tworzenia komitetów kompetent- 
nych klasyfikatorów (Duch, Itert i Grudziński, w druku). Komitet traktować moż- 
na jako sieć złożoną z podsieci, lub też jako sieć złożonych elementów przetwa- 
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rzających, z których każdy jest pewnym modelem adaptującym się lub indywidu- 
alna podsiecią. W zastosowaniu do klasyfikacji rezultaty działania O(X;M,) każ- 
dego modelu M; mają wkład z wagą W; do końcowego wyniku. Jest to więc archi- 
tektura typu perceptronu, który łączy ze sobą wyniki poszczególnych modeli, ale 
wagi nie są w nim ustalone, gdyż są modulowane przez rezultaty wstępnego roz- 
poznawania za pomocą czynników multiplikatywnych F(X;Mj). W obszarach 
przestrzeni cech, w których model M; nie wykazuje kompetencji czynniki te są 
małe, hamując działanie odpowiednich modułów i dopuszczając do głosu tylko 
kompetentne modele. Efektywne wagi zależą od chwilowego stanu sieci W(X) = 
W, F(X;M,) pozwalając na tworzenie wirtualnych podsieci, z różnymi ścieżkami 
przepływu informacji. Zastosowanie tego podejścia do tworzenia komitetów przy- 
niosło bardzo dobre rezultaty (Duch i Itert, w przygotowaniu). 

Modulacja aktywności modułów wymaga równoległego dostępu do nich. In- 
formacja rozsyłana jest w mózgu dzięki specyficznej architekturze połączeń, w 
tym bezpośrednim projekcjom z ośrodków podkorowych układu limbicznego do 
kory nowej. Zapewne istotną rolę gra tu pamięć robocza, którą Newman i Baars 
(1993) uważają za mechanizm dystrybucji informacji do wyspecjalizowanych 
modułów wewnątrz mózgu. Jest to na razie mechanizm dość tajemniczy, w szcze- 
gólności rola globalnej aktywności EEG jest tu całkiem nieznana. Przejście od 
skojarzeń, które realizują prostych modele neuronowe, do sekwencyjnego prze- 
twarzania (myślenie, rozwiązywanie problemów) wymaga uwzględniania sprzę- 
żeń zwrotnych, a więc zastosowania sieci z rekurencją. Sieci złożone z modułów 
zmieniają swoje stany wewnętrzne (lokalną wiedzę każdego modułu) i swoje 
oddziaływania (modulując wielkość wag) do wymagań przepływu informacji 
przez system. 

Na tym poziomie konieczne są procesy systematycznego szukania, jednakże 
neurobiologiczne mechanizmy za nimi stojące nie są znane. Wiedza zgromadzona 
przez moduły może służyć jako heurystyki pomagające w intuicyjnym rozumo- 
waniu takiego systemu. Jak pokazano w pracy (Duch i Diercksen 1995) złożony 
problem wymagający podejścia kombinatorycznego można całkiem łatwo rozwią- 
zać za pomocą procesów szukania brakujących wartości tak, by pobudzeniu uległa 
jak największa liczba kolejnych modułów. Użyto w tym przypadku modułów sieci 
FSM, które specjalizowały się w jakościowym rozpoznawaniu relacji pomiędzy 
trzema wielkościami elektrycznymi, wynikających z prawa Ohma i prawa Kir- 
choffa. Przykład oparty był na analizie obwodu elektrycznego, przedstawionej w 
książce grupy PDP (McClleland i inn. 1986) w kilku rozdziałach. Wiele relacji 
typu AA=f(AB, AC), reprezentujących zmiany wartości zmiennych A, B, C, ma 
identyczną reprezentację w przestrzeni cech i może być realizowana przez ten sam 
moduł. Znając relacje pomiędzy trójkami zmiennych możemy wyciągnąć wnioski 
o zachowaniu się całego obwodu opisywanego przez 7 zmiennych i 5 praw, które 
muszą być spełnione. Rozpoznanie tych praw, a następnie aktywacja 5 modułów 
(wszystkie są identyczne), pozwala na znalezienie odpowiedzi w przypadku za- 
gadnienia, którego rozwiązanie jest trudne (Duch 1997) i wymaga kombinato- 
rycznej produktywności. 

Modularne sieci, takie jak FSM, mogą więc być użyte jako ważne heurystyki w 
rozwiązywaniu problemów wymagających systematycznego rozumowania. Roz- 
wiązanie znaleźć można za pomocą systematycznego szukania, w którym każdy 
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logiczny krok (szukanie odmiennych brakujących wartości) wspierane jest przez 
wiedzę „„intuicyjną”, rozstrzygającą co warto dalej rozważać, a co od razu można 
odrzucić. Czy można w ten sposób rozwiązać typowe problemy stawiane progra- 
mom rozumującym w sztucznej inteligencji? Być może, ale tworzenie systemów 
sieciowych, które mogłyby sprostać systemom ekspertowym pozostaje nadal wy- 
zwaniem. 

Systemy, którymi zajmuje się sztuczna inteligencja korzystają z wiedzy o zło- 
żonej strukturze, wykorzystując złożone sposoby reprezentacji wiedzy. Sieci neu- 
ronowe działają w przestrzeniach cech, a więc wykorzystują prostą reprezentację 
wiedzy, stanowiącą podstawę teorii rozpoznawania struktur (Duda, Hart i Stork 
2001). Tego typu reprezentacja nie gra zapewne większej roli w mózgu. Nawet w 
obrębie jednej modalności zmysłowej, np. na poziomie percepcji wzrokowej, nie 
posługujemy się przestrzeniami cech, chociaż oceny podobieństwa i dyskrymina- 
cja może być wystarczającą podstawą do eksploracji wzrokowej świata (O'Regan i 
Noć, w druku). Na poziomie abstrakcyjnych procesów rozumowania lub analizy 
sensu zdań reprezentacja wektorowa nie wydaje się być użyteczna. Potrzebne są 
złożone struktury wiedzy, którymi zajmuje się sztuczna inteligencja. W jaki spo- 
sób można te procesy zrozumieć i modelować za pomocą sieci neuronowych? 

Dość ogólne podejście do przetwarzania danych o złożonej strukturze, oparte 
na sieciach z rekurencją i ukrytych modelach Markova, wprowadzono w pracy 
(Frasconi i inn. 1998). Nie wydaje się ono łatwe w praktycznym stosowaniu, ani 
też dobrze uzasadnione neurobiologicznie. Przedstawię tu znacznie prostsze, i jak 
się wydaje bardziej ogólne, podejście. Dwa najczęściej stosowane schematy re- 
prezentacji wiedzy w sztucznej inteligencji oparte są na przestrzeni stanów i opisie 
redukcji problemów (Rich i Knight 1990, Winston 1992, Nillson 1995). Stan 
początkowy przedstawiany jest jako stan bazy danych lub opis problemu, a stan 
końcowy (rozwiązanie) jest również stanem bazy danych lub prostym problemem 
o znanym rozwiązaniu. Definiuje się zbiór operatorów, które przekształcają obiekt 
początkowy (stan, opis problemu) w obiekt końcowy. Rozwiązanie jest serią prze- 
kształceń, przy czym stany pośrednie przechowujemy w pamięci roboczej lub 
zapisujemy na kartce w procesie szukania rozwiązania. Każda z operacji związana 
jest z pewnymi kosztami. W szczególności koszty mogą być stałe a ważna może 
być jedynie liczba operacji. Najbardziej cenione są rozwiązania najprostsze. Pod- 
stawową operacją powinno więc być ocenianie podobieństwa lub też odległości od 
pożądanego rozwiązania, rozumianej jako koszty przekształceń. Takie oceny 
można dokonać sprawnie za pomocą algorytmów programowania dynamicznego. 

Podobieństwo złożonych obiektów do siebie można związać z najtańszymi 
kosztami przekształcenia obiektów w siebie. Podobieństwo wystarczy do dokona- 
nia kategoryzacji, a po jego ocenie pierwotne cechy nie są już potrzebne. Z naj- 
prostszych cech obrazu padającego na komórki siatkówki układ wzrokowy tworzy 
złożone cechy wyższego rzędu, odmienne dla różnego typu obiektów. Rozpozna- 
jąc różne typy obiektów zwracamy uwagę na całkiem inne cechy, a zbiór wszyst- 
kich możliwych cech, które mogą mieć widziane obiekty, trudno sobie nawet 
wyobrazić. Chociaż operacje mentalne na wyższym poziomie abstrakcji nie są 
jeszcze znane bez wątpienia ocena podobieństwa i relacji pomiędzy złożonymi 
obiektami pełni w nich istotną rolę. Rozumowanie oparte na podobieństwie nie 
zawsze daje się sprowadzić do rozumowania logicznego, przypomina ono bardziej 
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rozumowanie „intuicyjne”. Reguły logiki klasycznej i rozmytej mają ograniczone 
możliwości ekspresji (Duch, Adamczak i Grąbczewski 2001), wykorzystanie ocen 
podobieństwa do prototypów stwarza większe możliwości (Duch i Grudziński, 
2001). Ogólny schemat metod opartych na podobieństwie obejmuje większość 
znanych sieci neuronowych jako szczególny przypadek (Duch 2000). Takie meto- 
dy pozwalają na rozpoznawanie wzorców wykorzystując jedynie podobieństwo, 
nie trzeba wiec zakładać istnienia przestrzeni cech i wektorowej reprezentacji 
wiedzy (por. Pękalska Pacilik i Duin 2001). 

Goldfarb i Nigam (1994) przedstawili ciekawą krytykę wykorzystywania prze- 
strzeni wektorowych jako podstawy dla metod indukcyjnej generalizacji struktury 
klas. System ewoluujących transformacji zakłada wprowadzanie nowych operato- 
rów transformacji obiektów oraz metod oceny ich podobieństwa w celu porówny- 
wania obiektów o odmiennej strukturze. Przydaje się to na przykład w chemii lub 
biologii molekularnej, gdzie obiekty mają całkiem odmienne struktury, chociaż 
ich własności (funkcje lub oddziaływania) powodują, że eksperci zaliczają je do 
tej samej klasy. Systemy ekspertowe do rozpoznawania i syntezy struktur che- 
micznych w niewielkim stopniu korzystają z reprezentacji w przestrzeni cech. 

Sztuczna inteligencja zajmuje się symbolicznym przetwarzaniem informacji, w 
znacznym stopniu ignorując zagadnienia związane z percepcją, analizą scen wzro- 
kowych, słuchowych czy sygnałów węchowych, czyli analizą wzorców o czaso- 
przestrzennej strukturze. Są to zagadnienia trudne, niektóre z nich mogą wymagać 
stosowania sieci neuronowych używających impulsów (Wang 2000, Kunstman i 
inn. 1994). Istnieje kilka pism specjalizujących się w modelach impulsujących 
neuronów o poprawnych własnościach neurobiologicznych, warto też wymienić 
próby wykorzystania inspiracji odkrytych dzięki modelom neurobiologicznym, ich 
modularnej organizacji, synchronizacji procesów uczenia się i pamięci, do roz- 
wiązywania praktycznych zagadnień (Wermter i inn. 2001). Szczególnie interesu- 
jące są uproszczone modele przetwarzające czasoprzestrzenne wzorce pobudzeń 
układów sensorycznych, wykorzystujące rezultaty działania do podejmowania 
decyzji na poziomie wyższych czynności poznawczych. Takie modele pozwalają 
na naturalne pojawienie się niezmienniczości rozpoznawanych struktur. W mode- 
lu, który zaproponował Hopfield i Brody (2001) niezmienniczość względem prze- 
sunięć w czasie i różnic w intensywności bodźców wynika z krótkotrwałej syn- 
chronizacji potencjałów wysyłanych przez grupy neuronów. 

Rozpoznawanie i kategoryzacja czasoprzestrzennych wzorców pozwala na 
przypisywanie im symbolicznych nazw, chociaż używanie symboli nie zawsze jest 
dobrym przybliżeniem do opisu zjawisk neurodynamicznych. Przejście od sieci z 
rekurencją do automatów skończonych i symboli można wykonać na kilka sposo- 
bów: szukania reguł przejść między stanami sieci rekurencyjnych, uczenie się 
zachowań dyskretnych przez takie sieci, kodowanie automatów skończonych w 
sieciach neuronowych (Giles i Gori 1998, Sun i Giles 2001, Wermter i inn. 2001, 
Michel i Liu 2002). Na ten temat napisano wiele prac, ale prawie wszystkie zakła- 
dają jedynie dwa stany wewnętrzne elementów sieci lub automatów skończonych, 
aktywny i nieaktywny. Ogranicza to w oczywisty sposób możliwości takich sieci. 
Niewiele wiadomo o możliwościach automatów ze złożonymi stanami wewnętrz- 
nymi. Sekwencyjne procesy w modularnych sieciach złożonych z podsieci powin- 
ny z grubsza odpowiadać procesom przetwarzania informacji w korze mózgu. 


15 


Procesy takie można próbować aproksymować za pomocą wielostanowych, roz- 
mytych automatów. Złożone elementy sieci z lokalną pamięcią mogą przetwarzać 
informację w sposób szeregowych, krok po kroku, zależnie od przeszłości. Po- 
szczególne moduły mogą się specjalizować w rozpoznawaniu korelacji działania 
kilku elementów ze sobą, rozwiązywaniu fragmentów problemu. Zachowanie 
całości podlega też pewnym regułom, które pełnią rolę gramatyki systemu symbo- 
licznego, realizowanego przez automat skończony. 

Ewoluujące sieci mogą dodawać i usuwać węzły i połączenia w czasie uczenia. 
Reprezentacja wewnętrzna wiedzy może wykorzystywać liczne redundante pod- 
zbiory cech, zamiast jednej sieci działającej w przestrzeni wektorowej. W ten 
sposób w sieci obecnych jest bardzo wiele mikrocech, z których tworzy się różne 
cechy wyższego rzędu dzięki dynamicznej konfiguracji modułów sieci, w zależ- 
ności od zadania, nad którym pracuje system (skupienia uwagi). Jak dotychczas 
jest to tylko pomysł teoretyczny, nie udało się jeszcze skonstruować takich sieci. 

Złożone moduły powinny wymieniać informację za pomocą wielowymiaro- 
wych połączeń. Proste skojarzenia mogą być reprezentowane przez zwykłe połą- 
czenia pomiędzy prostymi neuronami. Złożone fragmenty wiedzy realizowane 
przez moduły oddziałują z innymi poprzez zbiór połączeń, których aktywność 
zależy od informacji kontekstowej i może być modelowana przez reguły rozmyte. 
Ten sam schemat można użyć na wyższym poziomie przetwarzania informacji, 
zakładając, że moduły są teraz wyspecjalizowanymi podsystemami, odpowiadają- 
cymi większym obszarom lub strukturom mózgu, tworząc supersieci, odpowiada- 
jące funkcjom całych mózgów. Zasady działania są za każdym razem podobne: 
sieci oddziaływujących ze sobą modułów dostosowujące się do przepływu infor- 
macji i zmieniające swoją wewnętrzną wiedzę i sposób oddziaływania z innymi 
modułami. Sprawne algorytmy uczenia się znane są tylko dla sieci najprostszych 
elementów. Proces uczenia się prowadzi do powstania nowych, skomplikowanych 
sposobów zachowania. Jedną z zasad budowy takich sieci jest maksymalizacja 
pojemności informacyjnej systemu: jeśli supersieć nie może modelować wszyst- 
kich dochodzących do niej relacji powinna dodać do siebie dodatkowe moduły, 
specjalizujące się w uczeniu się faktów i relacji, które są w danym momencie 
potrzebne. Komunikacja pomiędzy takimi systemami może zachodzić na pozio- 
mie symbolicznym, tak jak pomiędzy agentami programowymi (Russel i Norvig 
1995). Teoria agentów jest dobrym punktem startu dla rozważań nad sposobem 
budowy takich sieci. 

Wszystkie systemy, które realizują obecnie wyższe czynności poznawcze, roz- 
wiązujące problemy czy analizujące wypowiedzi w języku naturalnym, oparte są 
na technologii systemów ekspertowych (jednakże Treister-Goren I Hutchens, 
2000, opisali system spontanicznie uczący się znaczenia otrzymywanych I wysy- 
łanych symboli, który zapewne da się zrealizować w postaci sieci neuronowej). 
System CYC (www.cyc.com) zawierający ponad milion faktów i dziesiątki tysię- 
cy koncepcji nie używa sieci neuronowych ani żadnych inspiracji kognitywnych, 
ograniczając się do metod symbolicznej reprezentacji wiedzy. Inne modele AI, 
które odniosły znaczny sukces, systemy Soar (Newel 1990) i Act (Anderson 
1995), również opierają się wyłącznie na podejściu symbolicznym. Czy można je 
ulepszyć wykorzystując subsymboliczne podejścia wykorzystujące metody inteli- 
gencji obliczeniowej? Sieci Bayesowskie i modele graficzne mogą stanowić po- 
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most pomiedzy tymi technologiami. Jedynym systemem hybrydowym, ktory wy- 
korzystywat sieci neuronowe dla analizy tekstów, był DISCERN (Miikkuleinen 
1993). Chociaż wykorzystano w nim szereg interesujących idei system ten prze- 
stał się rozwijać. 

Bardzo złożone supersieci, takie jak indywidualne mózgi, można też traktować 
jako jednostki oddziaływujące ze sobą i tworzące struktury wyższego rzędu, takie 
jak grupy ekspertów, instytucje, uniwersytety, wykorzystujące ogromną wiedzę, 
wymaganą do rozwiązywania problemów, z którymi borykają się współczesne 
społeczeństwa. Burza mózgów jest przykładem takich oddziaływań, które mogą 
przyczynić się do powstania nowych idei, ocenianych i analizowanych przez gru- 
py ekspertów. Najtrudniejszym zadaniem jest tworzenie nowych idei, twórcze 
działanie wymagające nowych kombinacji znanych elementów, generalizacji 
wiedzy na nowe sposoby. Proces ten nie musi się różnić w zasadniczy sposób od 
generalizacji wiedzy na niskim poziomie, w sieciach neuronowych, chociaż za- 
chodzi na znacznie wyższym poziomie złożoności. Prawdziwa trudność tworzenia 
takich systemów może być związana z koniecznością szczegółowej reprezentacji 
ogromnej wiedzy, pozwalającej na dodawanie nowych kombinacji znanych ele- 
mentów i tworzenie nowych koncepcji. 
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